AWS Glue DataBrew入門チュートリアル実践 #3 – 変換処理の追加と”レシピ”のバージョン管理
先日新しくリリースされたAWS Glueの新機能「AWS Glue DataBrew」。
前述手順では、指定したリソースに対して「レシピ」を作成・定義する事でデータの加工を行う手順を実践しました。
当エントリでは、次の手順となる手順その3「変換処理の追加と"レシピ"のバージョン管理」についてその内容を紹介していきます。
目次
当エントリでの実践手順
当エントリでは、前述手順で実践したレシピに対して更に変換処理を追加し、レシピ上で「設定のバージョン管理」が行われていることを確認します。
追加条件としてチェスの勝敗には「引き分け」が存在することを踏まえ、これらのデータを除外すること、またカテゴリの文字列情報を任意の値に置換(replace)するといった処理を追加していきます。
レシピへの条件追加(条件の不一致)
ここからは実践に移っていきます。少し時間を置いてプロジェクトに遷移し直すと、以下のような形で「レシピステップの検証(Validating recipe steps)」という確認作業がデータに対して入るようになりました。
変換ツールバーより[FILTER]→[By condition]→[is not]を選択。
実施したいのは「引き分けを除外する」という内容なので、以下の設定を行います。[Preview shown]を押下、適用されている内容を確認の上、[Apply]を押下。
- Source column(対象項目):
winner
- Filter condition(条件):
Is not
,draw
(文字列として入力)
レシピに対してステップが追加されました。
レシピへの条件追加(文字列置換)
続けてもう3つステップを追加します。[CLEAN]→[Replace value or pattern]を選択。
この処理は、任意の文字列を別の任意の文字列に置換する、という内容となります。下記内容を指定し、[Preview Shown]押下。所定の内容への置換が行われていることを確認し、[Apply]押下。
- Source columns(対象項目):
victory_status
- Specify values to replace(置換対象の指定方法):
Value or pattern
- Value to be replaced(置換対象項目・値):
Enter custom value
,mate
- Replace with value(置換内容):
checkmate
同じ手順を用いて、その他項目についても置換処理を追加していきます。
- Source columns(対象項目):
victory_status
- Specify values to replace(置換対象の指定方法):
Value or pattern
- Value to be replaced(置換対象項目・値):
Enter custom value
,resign
- Replace with value(置換内容):
other player resigned
- Source columns(対象項目):
victory_status
- Specify values to replace(置換対象の指定方法):
Value or pattern
- Value to be replaced(置換対象項目・値):
Enter custom value
,outoftime
- Replace with value(置換内容):
time ran out
レシピに対して再度パブリッシュを実行
都合3つのステップを追加した形となりました。以下の様にステップも3つ追加されていることが確認出来ます。前エントリ同様、ここまでの内容をパブリッシュします。
追加(保存)の際の手順は前エントリと同様。ここでもステップが3つ追加されていることが確認出来ています。
パブリッシュが成功しました。
レシピ名下のリンク(Version 2.1〜と表記のあるところ)をクリックすると、以下のような形でレシピ毎のバージョン遷移状況を確認することが出来ます。最新バージョンでは以下のような形で都合7つのステップが設定されている内容で表示されています。
最初に作成したレシピのバージョン、Version1.0の内容を確認してみます。こちらは前述手順通り、3つのステップを設定したことが内容としても確認出来ています。
まとめ
というわけで、AWS Glue DataBrew実践チュートリアルのステップ3「変換処理の追加と"レシピ"のバージョン管理」の紹介でした。
引き続き、次のステップ「4.DataBrewで作成されたリソースを確認する」を御覧ください。